随机梯度下降:一种用于优化(最小化损失函数)的迭代算法。与“批量梯度下降”每次用全部数据计算梯度不同,随机梯度下降(SGD)每次用单个样本或小批量样本近似梯度来更新参数,因此更新更频繁、速度更快,但梯度噪声更大。
/stoʊˈkæstɪk ˈɡreɪdiənt dɪˈsɛnt/
SGD updates the model after each training example.
SGD 会在每个训练样本之后更新模型。
Because stochastic gradient descent uses noisy gradient estimates, it often benefits from learning-rate schedules and momentum.
由于随机梯度下降使用带噪声的梯度估计,它通常会受益于学习率调整策略和动量方法。
stochastic 来自希腊语 stokhastikos,意为“善于猜测/推测的”,在现代数学与统计语境中引申为“随机的、概率性的”。gradient 指“梯度”,即函数在参数空间中的变化方向与速率;descent 指“下降”,在优化里指沿着使目标函数减小的方向迭代更新。合起来即“用随机近似的梯度做下降优化”。